语音处理基础:预加重、分帧、帧移、加窗、傅里叶变换

您所在的位置:网站首页 傅里叶变换去噪求出 信噪比 语音处理基础:预加重、分帧、帧移、加窗、傅里叶变换

语音处理基础:预加重、分帧、帧移、加窗、傅里叶变换

2024-07-12 18:08| 来源: 网络整理| 查看: 265

一、预加重

        预加重是语音信号处理的前提,主要目的是提升语音信号中的高频分量。         人的发生系统是从肺开始,肺作为能量源,气流通过声带,引发周期性震动(元音),能量经过咽、口腔、唇、舌, 形成最后的声音。元音能量主要集中在1KHz以下,并且以6dB/十倍频的速度下降。辅音一般不引起声带振动,频率更高。其中口唇辐射对低频影响比较小,但是对高频段影响比较大, 预加重就是为了消除这种影响,提升高频分量。         在语音信号中,提升高频分量的目的主要是因为高频分量(即辅音)包含了更多的信息,而元音的频率普遍较低。功率谱随频率的增加而减小,其大部分能量集中在低频范围内。这就造成消息信号高频端的信噪比可能降到不能容忍的程度。         总之,预加重保持信号的低频部分不变,提升信号的高频部分;而去加重衰减信号的低频部分,保持高频部分。预加重/去加重的目的都是提升信号中高频部分的能量,以补偿信道对高频部分衰减过大。预加重一般采用的是一阶高通滤波器:

H\left( z \right)=1-\mu {​{z}^{-1}}

        其中,\mu {​{z}^{-1}}的取值一般接近于1。

二、分帧

        语音数据和视频数据不同,本没有帧的概念,但是为了传输与存储,我们采集的音频数据都是一段一段的。为了程序能够进行批量处理,会根据指定的长度(时间段或者采样数)进行分段,结构化为我们编程的数据结构,这就是分帧。语音信号在宏观上是不平稳的,在微观上是平稳的,具有短时平稳性(10---30ms内可以认为语音信号近似不变),这个就可以把语音信号分为一些短段来进行处理,每一个短段称为一帧(CHUNK)。

详见:语音信号处理基础(五)——语音分帧与加窗_张亚楠·的博客-CSDN博客_语音分帧与加窗实验报告

三、帧移

        由于我们常用的信号处理方法都要求信号是连续的,也就说必须是信号开始到结束,中间不能有断开。然而我们进行采样或者分帧后数据都断开了,所以要在帧与帧之间保留重叠部分数据,以满足连续的要求,这部分重叠数据就是帧移。

四、加窗

        介绍帧移的时候我们说了,我们处理信号的方法都要求信号是连续条件,但是分帧处理的时候中间断开了,为了满足条件我们就将分好的帧数据乘一段同长度的数据,这段数据就是窗函数整个周期内的数据,从最小变化到最大,然后最小。

        加窗即与一个窗函数相乘,加窗之后是为了进行傅里叶展开.         1.使全局更加连续,避免出现吉布斯效应         2.加窗时候,原本没有周期性的语音信号呈现出周期函数的部分特征。 加窗的代价是一帧信号的两端部分被削弱了,所以在分帧的时候,帧与帧之间需要有重叠。

详见:语音信号处理基础(五)——语音分帧与加窗_张亚楠·的博客-CSDN博客_语音分帧与加窗实验报告

五、傅里叶变换         对一帧信号做傅里叶变换得到的结果叫做频谱

        对语音信号处理主要的数学工具是傅里叶变换,而傅里叶变换是研究整个时间域和频率域的关系。不过,当运用计算机实现工程测试信号处理时,不可能对无限长的信号进行测量和运算,而是取其有限的时间片段进行分析。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3